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基于 突显 词 博文 聚 类 的 官 微 事件 检测 方法 


高 永 兵 : 杨 贵 朋 : K 35 马 占 飞 ? 
!( 内 蒙古 科技 大 学 信息 工程 学 院 包头 014010) 
2( 包 头 师范 学 院 计算 机 系 ”包头 014010) 


摘要 : 【 目的 ] 针对 官方 微 博 数据 存在 大 量 不 相关 信息 的 问题 , 过 滤 博 文 进而 检测 事件 .【 方 法 】 利 用 
Word2Vec 机 器 学 习 模 型 训练 官方 微 博 记 录 集 , 并 将 博文 影响 力 、 词 基础 权重 以 及 官 微 相关 性 相 结 合 , 提出 
官方 微 博 突显 词 检测 方法 , 计算 突显 词 博 文 的 相似 度 , 利用 层次 聚 类 算法 对 突显 词 博文 聚 类 后 选取 合适 的 
突显 词 描述 事件 ,从 而 实现 事件 检测 。【 结果 】 实 验 结果 表明 , 与 TF-IDF 和 TextRank 算法 相 比 较 , 本 文 的 
突显 词 算法 在 准确 率 (63.5%)、 召 回 率 (85.5%) 和 下 值 (73.0%) 方 面 表现 更 好 。〖 局限 】 官 方 微 博 历史 记录 太 少 ， 


初始 的 训练 会 存在 数据 冷 启 动 问题 。【【 结论】 本 文 方法 可 以 在 官方 微 博 博 文中 有 效 检 测 官方 微 博 事件 。 
关键 词 : 官方 微 博 ”相关 词 ”突显 词 ” 官 微 事件 “Word2Vec 
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1 引 Ë 


随 着 大 量 组 织 机 构 微 博 的 开通 , 官方 微 博 (简称 官 
微 ) 逐 渐进 入 人 们 的 视野 , 并 引起 社会 各 界 的 重视 , 也 
引发 了 学 术 界 的 研究 热情 。 官 微 一 般 属于 组 织 团体 账 
F, 是 经 过 平台 认证 的 微 博 。 官 微 博文 比较 正式 ,可 信 
度 高 ， 其 组 织 功能 的 宣传 性 博文 占 比 大 , 具有 较 强 的 
社会 效应 。 但 由 于 官 微 多 人 式 分 工 维护 的 特点 , 博文 
中 蕴含 着 大 量 官 微 发 展 历程 信息 , 也 存在 许多 非 组 织 
功能 性 的 博文 ， 以 新 浪 微 博 北 京 大 学 官 微 中 两 条 博文 
为 例 : 

Pl # 好 读书 , 读 好 书 #【 每 周 读书 特辑 外 国 小 说 】 备 德 
斯 鸠 说 : 喜爱 ... 外 国 小 说 更 是 给 我 们 呈现 出 一 个 完全 不 同 的 
世界 。 

P2: # 总 理 来 啦 # 第 一 站 , 克 强 总 理 来 到 位 于 朗 润 园 的 
家 发 展 研 究 院 ， 了 解 北 京 大 学 智库 建设 以 及 国家 发 展 研 
究 院 的 发 展 情况 。 北 京 大 学 校长 林 建 华 、 校 党 委 书记 朱 善 璐 
REF] BUR... 

笔者 定义 官 微 事件 为 描述 官方 组 织 机 构 在 某 段 时 
间 内 所 发 生 的 事情 , 或 者 与 其 相关 的 事情 。P2 谈 及 总 


理 来 北京 大 学 访问 的 事件 , 就 是 比较 受 关注 的 北京 大 
学 官 微 事件 。 本 文 目标 是 过 滤 掉 类 似 Pl 的 博文 ,保留 
类 似 P2 的 博文 并 从 过 滤 后 的 博文 中 聚 类 时 间 上 相近 、 
内 容 上 相关 的 博文 , 进而 实现 官 微 事 件 检测 ,并 筛选 
出 特征 词 描述 所 检测 到 的 官 微 事件 。 在 官 微 逐渐 成 为 
团体 组 织 和 企业 主要 宣传 阵地 的 今天 ,从 官 微 历 史记 
录 中 提取 官 微 事件 有 助 于 浏览 者 快速 了 解 该 组 织 的 主 
要 事件 , 大 大 提高 信息 获取 效率 , 但 如 何 过 滤 官 微 博 
文中 的 无 关 组 织 功能 性 博文 、 准 确 提取 事件 特征 词 的 
工作 存在 着 不 少 挑 战 。 


2 相关 工作 


微 博 事件 检测 技术 一 直 以 来 都 是 学 术 界 备 受 关注 
的 研究 热点 , 其 基本 思路 是 通过 检测 具有 热点 时 间 突 
发 效应 的 高 频 词汇 并 计算 语句 间 的 相似 性 , 将 相关 度 
高 的 大 量 语句 段落 聚合 到 一 起 ,通过 句法 分 析 和 词性 
分 析 提 取 事 件 号 。 

目前 的 研究 工作 主要 是 通过 微 博 话 题 或 主题 的 检 
测 分 析 进 行事 件 检测 文献 [和 提出 一 种 结合 微 博 
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研究 文 


数据 文本 特征 、 语 义 特征 、 时 序 特征 和 社交 关系 特性 
的 微 博 数据 事件 检测 算法 EDM, 与 LDA 模型 的 事件 
检测 算法 对 比 显示 出 其 事件 检测 算法 的 有 效 性 。 文 献 [5] 
提出 基于 突 发 词 特征 增 量 聚 类 的 微 博 新 闻 话 题 检测 方 
法 。 该 方法 引入 罕 发 词 特征 增 量 聚 类 算法 对 新 闻 话 题 
进行 发 掘 ,其 具有 较 高 的 算法 效率 , 但 忽略 了 微 博 发 
文 率 等 博文 特有 特征 , 而 且 只 考虑 词 频 增 长 率 等 微 博 
文本 信息 抽取 事件 突 发 特征 。 事 件 检 测 方法 [中 通过 
构造 词汇 文本 矩阵 分 析 事 件 ,， 微 博 数 据 的 短文 本 和 文 
本 缺失 性 导致 特征 矩阵 高 度 稀 玻 , 实验 结果 的 准确 率 
难以 令 人 满意 。 另 外 , 微 博 数据 的 转发 评论 为 事件 检 
测 提取 提供 丰富 的 数据 基础 ,传统 的 方法 未 将 其 考虑 
进去 。 目 前 的 研究 成 果 大 多 基于 改进 的 TF-IDF、 基 于 
概率 和 基于 图 的 方法 。 近 年 来 , 机 器 学 习 、 大 数据 处 
理 等 领域 方法 在 微 博 数据 研究 方面 细 露 头角 ， 璧 如 基 
于 Hadoop 框架 分 布 式 处 理 微 博 数据 、 分 布 式 词 向 量 
概念 的 推出 等 都 对 微 博 研究 起 到 很 大 的 推动 作用 。 以 
往 工作 主要 针对 于 公共 微 博 集 的 公共 事件 做 深入 研 
究 ， 就 单个 官 微 事件 检测 的 研究 还 比较 欠缺 , 官 微 事 
件 的 研究 工作 仍 需要 进一步 完善 。 本 文 针对 官 微 事件 
检测 提出 如 下 定义 。 

定义 1 相关 词 : 与 某 一 检索 词 有 如 下 关系 的 其 他 
检索 词 。 

所 属 关 系 。 如 :“ 北 京 大 学 " “博雅 塔 *… 农 园 食 堂 ”。 

@ 关 联 关系 。 如 :“ 北 京 大 学 ”、“ 空 间 科学 ”清华 大 学 ”。 

官 微 相 关 词 是 能 够 反映 官 微 组 织 事件 主题 信息 的 
相关 词 , 这 些 词 通常 在 官 微 博 文 历史 记录 里 拥有 较 高 
的 词 频 , 同时 与 官 微 事件 存在 一 定 的 联系 。 

定义 2 突显 词 : 在 某 个 或 多 个 不 同时 间 段 内 , 该 
词 经 常 出现, 且 上 述 时 间 段 以 外 很 少 出 现 或 不 出 现 的 
特征 实 词 。 

CD v vb GR ERE IS] Ps do: JE pn E Reno ens 

@ 总 理 来 访 时 间 段 。 如 : “总 理 ”“ 林 建华 "“ 农 园 食堂 ”。 

言 微 突 显 词 是 博文 中 能 够 描述 官 微 事件 的 具有 一 
定 影响 力 、 相 关 性 的 突显 词 。 

本 文 综合 考虑 官 微 博文 特征 ,借助 机 器 学 习 模型 
训练 官 微 相 关 词 , 并 基于 官 微 相关 词 、 时 间 段 博文 活 
跃 度 以 及 博文 的 转发 评论 等 基础 特征 提取 官 微 突显 
ij, 计算 官 微 突显 词 博 文 相似 度 并 聚 类 检测 官 微 事 
件 ,选取 能 描述 官 微 事 件 的 突显 词 实现 官 微 事件 检测 。 


数据 分 析 与 知识 发 现 


3 官 微 突显 词 提取 


3.1 相关 词 训练 

根据 官方 微 博 的 数据 流 特征 引入 官方 微 博 相 关 语 
料 集 , 通过 官 微 相 关 词 权重 加 权 可 以 提高 官 微 博文 突 
显 词 提取 的 准确 性 。 借 助 程序 抓 取 官 微 组 织 的 微 博 历 
史记 录 集 , 利用 Word2VectH 工 具 训 练 并 建立 官 微 相 
关 语 料 库 。 

Word2Vec 是 一 款 将 词 表征 为 实数 值 向 量 的 高 效 
工具 , 其 利用 深度 学 习 思 想 进行 记录 集 的 训练 。 
Word2Vec 使 用 的 是 分 布 式 词 问 量 表示 方式 , 基本 思想 
是 通过 训练 将 每 个 词 映射 成 N 维 实数 向 量 (N 一 般 为 
模型 中 的 超 参数 ), 通过 词 之 间 的 余弦 相似 度 距 离 、 欧 
式 距离 等 距离 计算 方法 判断 词 之 间 的 语义 相似 度 。 其 
核心 架构 由 CBOW 和 Skip-gram 两 个 模型 组 成 , 采用 
输入 层 、 隐 藏 层 、 输 出 层 的 三 层 神经 网 络 对 语言 模型 
进行 建 模 ,同时 获得 一 种 单词 在 向 量 空 间 上 的 表示 。 
核心 技术 是 根据 词 频 Huffman 编码 , 使 得 所 有 词 频 相 
似 的 词 隐藏 层 激活 的 内 容 基 本 一 致 , 出 现 频率 越 高 的 
词 或 者 词语 , 激活 的 隐藏 层 数目 越 少 , 这样 有 效 地 降 
低 了 计算 的 复杂 度 。Word2Vec 输出 的 词 向 量 可 以 被 用 
来 进行 很 多 自然 语言 处 理 方 面 的 相关 工作 , EIUS 
类 、 同 义 词 识别 、 词 性 分 析 等 。 与 潜在 语义 分 析 LSI、 
潜在 狄 利克 雷 分 布 LDA 的 经 典 过 程 相 比 ，Word2Vec 
利用 词 的 上 下 文 信息 , 语义 信息 更 加 的 全 面 、 丰 富 。 
本 文 利用 Word2Vec 的 词 向 量 模块 训练 记录 集 , 选取 
Skip-gram 模型 输入 官 微 名 称 , 得 到 官 微 相关 词 和 相 
关 度 权 值 并 构成 官 微 相 关 语 料 集 。 语 料 集中 的 元 素 由 
相关 词 word 和 相关 度 权 值 w_ra 组 成 ,如 公式 (1) 所 示 。 

RELi, j = (word,,w. ray), (word,.w __ra; ),*… o) 

(word,,w rag): 

其 中 , REL; ;表示 官 微 相关 语 料 集 , worqd, fll w ram 

分 别 表 示 官 微 相 关 词 和 相关 度 权 值 。 

3.2 ”突显 词 提 取 

通过 检测 官 微 博文 中 特征 词 的 突显 性 提取 官 微 突 
显 词 。 博 文中 特征 词 的 突显 性 与 博文 影响 力 *"、 词 
基础 权重 和 官 微 相 关 度 权 值 有 关 。 

(1) 博文 影响 力 

言 微 特征 词 的 突显 性 与 官 微 博文 影响 力 之 间 存 在 
很 大 关联 。 描 述 官 微 事件 的 突显 词 是 具备 影响 力 的 ， 


这 些 词 在 自己 的 微 博 博 文中 不 仅 经 常 被 提 及 ,而 且 在 
其 他 微 博 用 户 的 博文 中 也 能 够 见 到 。 不 同 于 传统 网 页 
文本 , 壁 如 长 文本 文档 , 一 个 词汇 会 引起 更 多 人 的 注 
意 可 能 是 其 出 现在 标题 或 者 版 面 上 , 也 意味 着 其 影响 
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向 词 j 的 词语 集合 , wj; 和 wi 表示 边 权 重 。 

(3) 官 微 突显 词 

官 微 突显 词 是 具有 突显 性 的 官 微 特征 词 , 对 发 现 
新 兴 官 微 事 件 的 研究 工作 尤为 重要 。 官 微 特征 词 的 突 


力 很 大 。 但 是 微 博 受 到 字符 长 度 限制 , 也 不 存在 标题 
和 版 面 , 只 有 用 户 关注 的 博文 才 会 被 浏览 。 因 此 考虑 
到 官 微 博文 的 转发 评论 、 官 微 博 文 活跃 度 等 特性 。 笔 
者 将 时 间 段 ! 中 包含 特征 词 i 的 官 微 博 文 P 的 影响 力 
表示 为 如 公式 (2) 所 示 。 


INF! (P) = > lg(nctp tnrts +DxV, 2) 
ieP 
其 中 ,P 了 表示 包含 特征 词 i 的 所 有 博文 , nctp 和 nrtp 
分 别 表示 包含 特征 词 ;的 博文 的 被 转发 数 和 被 评论 数 。 
太 表 示 官 微 的 博文 活跃 度 。 官 微 博 文 的 活跃 度 由 官 微 
博文 某 一 段 时 间 内 的 发 博 频 率 , 即 一 段 时 间 内 平均 每 
天 发 布 博文 的 条 数 决定 ,该 频率 能 够 反映 出 官 微 某 段 
时 间 内 的 博文 活跃 程度 ， 如 公式 (3) 所 示 。 
0.5 avgP 215 
Vp 240.3 3X avgP «15 (3) 
0  avgP«3 
其 中 , Voss E SCR EKE, avgP 表示 官 微 组 织 
一 段 时 间 c 内 平均 每 天 的 发 博 率 , 即 官 微 时 间 1 内 平均 
每 天 发 布 的 微 博 条 数 ,该 值 越 大 ,意味 着 官 微 博文 在 此 
段 时 间 内 越 活跃 , 则 官 微 事 件 出 现 的 可 能 性 就 越 大 。 
(Q2) 词 基础 权重 
在 突显 词 检测 时 , 借助 于 TextRank" ”算法 获取 
博文 中 的 关键 词 权 重 作 为 特征 词 的 基础 权重 值 
TW(V)。TextRank 是 基于 图 的 原理 , 针对 文本 句子 关 
系 设计 的 权重 算法 , 将 词语 视 为 句子 , 通过 构建 词语 
图 将 每 个 词 作为 节点 , 边 作为 权重 , 基于 相 邻 词 进行 
投票 的 原理 , 利用 局 部 词汇 之 间 关 系 对 后 续 特征 词 进 
行 排序 , 直接 从 文本 本 身 抽取 。 因 其 简洁 有 效 而 得 到 
广泛 使 用 。 计 算 方 法 如 公式 (4) 所 示 。 


Wi 
TW(V)-(-d)*tdx >, —QG—— — TW(V;) 
Ve In(V,) Wi 
` V,eOut(V;) 


(4) 
其 中 ，7( 了 内 表示 特征 词 i 的 权重 , d 为 阻尼 系数 ， 

一 般 取 值 0.85; ma( 队 表示 节点 万 的 邻接 边 集 合 即 指向 
词 ;的 词语 集合 , Out VRIT A 万 的 相 邻 边 集合 即 指 


显 性 在 日 常 中 表征 较为 普遍 ,可 以 和 任何 官 微 事件 保 
持 独立 , 但 当 某 一 重要 官 微 事件 发 生 时 , 该 词 的 影响 
力 、 突 显 性 是 呈现 增 大 状态 的 。 考 虑 到 官 微 的 复杂 结 
构 , 综合 博文 影响 力 、 基 础 权重 和 官 微 相 关 词 权重 等 
因素 来 评价 官 微 特征 词 的 突显 性 ,如 公式 (3) 所 示 。 
Burst; — 1 » [UNF/ (P) - INF* (P))x TW (V?) x + REL;.;)] 
k=t—n 
(5) 

He, Burst] 是 官 微 特征 词 i 在 时 间 段 1 内 的 官 微 
突显 度 , n 是 时 间 段 1 之 前 的 n 个 时 间 段 的 大 小 , 取 值 
是 在 1 到 1 之 间 的 整数 。INFA(P) 表 示 时 间 段 内 包含 
村 征 词 i 的 博文 的 影响 力 大 小 ; REL;j 表 示 词 i 与 官 微 的 
相关 度 权 值 , 该 值 通 过 Word2Vec 中 模型 训练 所 得 , 未 
训练 出 的 官 微 相 关 词 相关 度 权 值 为 0。 根 据 官 微 特征 
词 突显 性 筛选 规则 , 抽取 时 间 段 1 内 所 有 突显 性 大 于 
BIE o 的 官 微 特征 词 , 称 之 为 官 微 突显 词 , 突显 词 构 
成 的 集合 为 官 微 突显 词 集 , 官 微 突显 词 集 的 表示 如 
公式 (6) 所 示 。 

Burst' = {theme!', theme,',,theme;,…} (6) 

其 中 , theme! 表示 时 间 窗 t 内 的 第 i 个 官 微 突 显 词 。 

言 微 突 显 词 具 有 较 高 的 官 微 事件 主题 表现 力 , 能 
够 体现 官 微 事件 的 突显 性 。 即 其 与 官 微 事件 是 紧密 相 
关 的 , 借助 它 可 以 概括 整个 官 微 事 件 , 也 可 以 描述 官 
微 事 件 的 某 一 个 方面 ,表征 官 微 事件 。 


4 基于 突显 词 博文 聚 类 的 官 微 事 件 检测 


对 官 微 特征 词 计算 突显 性 后 , 得 到 官 微 突显 词 。 
也 就 是 官 微 事 件 的 相关 官 微 博 文 被 表示 成 无 权重 的 官 
微 突 显 词 特征 集合 。 通 过 计算 含有 突显 词 博文 的 综合 
相似 度 用 于 官 微 突显 词 博文 的 聚 类 ,利用 相应 的 官 微 
突显 词 簇 表征 官 微 事件 类 。 相 似 度 计算 方法 采用 基于 
语义 特征 的 微 博 相 似 度 计算 方法 "其 中 文本 语义 同 
时 考虑 知 网 语义 (包括 义 原 、 义 项 相似 度 ), 并 结合 词 频 
的 因素 "能够 将 相关 度 高 的 突显 词 博 文 归 为 一 类 ， 
又 避免 不 相关 博文 带 来 的 影响 。 文 本 语义 集成 标签 、 
链接 标题 和 时 间 相 似 性 计算 综合 相似 度 如 公式 (7)- 公 


Data Analysis and Knowledge Discovery 


式 (9) 所 示 。 
Simd pı = Sims, ui (Dis py) + Sim, y (PiP) D) 
lr i t, | 
Simd,, = Sim, (Pi, py) = expC- m (8) 
Simd(p;, p, ) = a,Simd ,, + oo Simd,,, + o Simd,,, + o, Simd,, 
(9) 


HP, Sims; 是 含 突显 词 博文 的 语义 相关 度 ， 
Simpa EF tf-idf 相关 度 ; Simd(p;, p,) KRE EPA 
突显 词 的 博文 p; 和 pi 之 间 的 综合 相似 度 ，Simq,, 
Simdi, Simd,,, 和 Simd 分 别 表示 含有 官 微 突 显 词 的 
博文 纯 文本 相似 度 、 链 接 标题 相似 度 、 标 签 相 似 度 和 
时 间 相 似 度 ; 对 于 链接 标题 和 标签 相似 度 ， 如果 词 语 
被 知 网 收录 , 采用 语义 相关 度 计算 , 否则 直接 利用 词 
频 向 量 进行 计算 ; 由 实验 可 知 ， 时间 相似 度 中 参数 0 
取 0.3 时 精确 度 最 高 。 其 中 m 、% 、Q3 、Q04 参数 值 
分 别 设置 为 0.3、0.3、0.25、0.15 时 ， 人 工 标注 下 的 相 
似 官 微 博文 的 相似 度 测试 结果 最 好 。 
通过 计算 官 微 中 任意 两 个 官 微 突显 词 博文 之 间 相 
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突显 词 作为 事件 的 检测 结 
5 实验 与 分 析 


实验 数据 采用 第 三 方 数据 软件 抓 取 的 新 浪 微 博 官 
微 数 据 。 目前 , 还 欠缺 官 微 数据 研究 的 标准 库 , 笔者 从 
北京 大 学 、 内 蒙古 科技 大 学 团委 、 包 头 交警 、 南 开 大 
学 等 官 微 历 史 数 据 集 中 各 取 2 000 条, 共 8 000 条 微 博 
博文 作为 测试 数据 并 进行 人 工 标注 。 时 间 段 t 大 小 设 
置 为 15 X, 对 其 中 的 官 微 博文 进行 事件 的 检测 。 实 验 
环境 为 Intel(R) Core(TM) i5-3470 CPU @ 3.2GHz RAM 
为 8GB, 操作 系统 为 64 位 的 Microsoft Windows 7。 
5.1 官 微 相关 语料库 

运用 软件 抓 取 官 微 组 织 的 微 博 记录 ,并 进行 分 词 
等 预 处 理 , 通过 机 器 深度 学 习 Word2Vec 训练 得 到 官 
微 相 关 词 和 官 微 组 织 的 相关 度 权 值 。 北 京 大 学 官 微 相 
关 词 的 相关 度 权 值 如 表 1 所 示 。 

表 1 北京 大 学 官 微 相 关 度 权 值 


x 7 dpi 相关 词 相关 度 权 值 相关 词 相关 度 权 值 

似 性 得 到 一 个 无 向 图 GC, E), DUR v, € VA S S TRIER 北大 0.511464 ”北京 大 学 第 三 医院 。 0.418483 
X pn Pi 和 Px 之 间 的 边 ej € E 的 权重 值 表示 p; fl po 许 智 宏 0.483764 荣获 0.418440 
间 的 综合 相似 性 ,在 此 无 向 图 上 采用 凝 罕 层次 聚 类 算法 清华 大 学 。 04709010 ”生命 科学 0.416257 
HAC 对 图 进行 聚 类 , 将 得 到 的 类 作为 官 微 事 件 类 的 检 招生 办 0.470327 ”大 讲堂 0.416236 
测 结果 。 通 过 类 中 的 官 微 突显 词 描述 官 微 事件 , 进而 生 深圳 0.468520 — 展开 0414171 
成 官 微 事件 检 测 结果 。 聚 类 及 事件 检测 算法 过 程 如 下 : ST 0.466221 duum 0.411467 
oc BRXGEAOREAO P Minit 揭晓 0.461243 ”来 访 0.409098 
输出 : ARE EALA IRE Clusters。 代表 团 0.451333 团委 0.408964 
simMatrix-[) XX 0.450333 ”北京 大 学 法 学 院 0.405279 
for P_Burst "的 每 个 突显 词 博 文 p; do 电视 台 0.447696 ”研究 院 0.404885 
for P_Burst' 的 每 个 突显 词 博 文 pt do 第 一 届 0.442393 RIH 0.404662 
simMatrix-[i][k]-simd(p; pi) 代表 队 0.440339 ”物理 0.404421 
Ei ir ILEK 0.433270 pide 0.400969 
endor 研究 生 会 0.431442 ”空间 科学 0.398369 

Clusters =clusterbyHAC(simMatrix, P. Burst ') 
UC. 6 H 0.421351 ”博雅 0.398264 
研究 生 院 ^ 0.420808 学生 会 0.397033 


算法 定义 相似 度 矩 阵 , 计算 出 任意 两 个 突显 词 博 
文 禾 之 间 的 相似 性 ,利用 凝聚 层次 聚 类 算法 HAC 进 
行 聚 类 , 得 到 官 微 博文 事件 类 簇 结果 。 算 法 的 平均 时 
间 复 杂 度 为 0(n2)。HAC 算法 是 一 种 自 底 向 上 的 凝聚 
式 算法 ,其 优点 是 不 需要 事先 定义 聚 类 艇 的 个 数 , 并 
且 收 敛 性 较 非 层次 聚 类 算法 好 , 能够 得 到 全 局 最 优 聚 
类 结果 。 通 过 事件 检测 得 到 k 个 类 ,每 个 事件 类 都 由 
一 组 官 微 突显 词 博文 复 组 成 , 从 中 选取 描述 事件 类 的 
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如 果 官 微 博文 中 含有 招生 办 、 孔 庆 东 、 生 命 科学 、 
博雅 等 词 时 , 这 些 词 的 REL;j 会 被 赋予 较 大 权重 ,在 突 
显 词 检测 时 会 被 检测 为 突显 词 , 作为 描述 官 微 事 件 的 
突显 词 用 于 检测 官 微 事件 。 另 外 , 对 于 官 微 相关 词 中 
出 现 的 “电视 台 ”“6 月 ”等 相关 度 权 值 排名 问题 , 将 初 
次 得 到 的 相关 度 权 值 与 官 微 简介 中 或 标签 中 的 主题 词 
进行 二 次 比 对 , 再 次 计算 其 相似 度 值 消除 误差 。 


5.2 ”突显 词 提取 结果 与 分 析 

实验 语 料 采 用 面向 官 微 历 史记 录 数 据 集中 200 条 
博文 (每 个 官 微 选取 50 条 )， 人工 标注 出 每 条 博文 中 所 
TRE E S, 每 条 最 多 标注 10 个 官 微 突显 词 ,如 
例 中 微 博 P2 PARRI: HA, GEER, 
库 ”“ 林 建华 ` “校长 "等 词 , 微 博 PI 中 不 含 官 微 突 显 
ij, 可 以 直接 被 过 滤 邱 。 对 这 200 条 博文 , 利用 本 文 所 
提出 的 方法 , 每 条 博文 提取 出 10 个 突显 性 最 高 的 词 。 通 
过 计算 候选 突显 词 在 标注 词 上 的 准确 率 、 召 回 率 和 下 值 
评测 方法 的 有 效 性 。 实 验 中 分 别 用 TF-IDF TextRank 
为 每 条 博文 提取 出 10 个 候选 词 与 本 文 的 方法 作对 比 。 

突显 词 实验 对 比 结果 如 图 1 所 示 。 可 以 得 出 , 本 
文 方法 相对 于 改进 的 TF-IDF 和 TextRank 方法 在 准确 
率 、 召 回 率 和 FF 值 方面 有 显著 提高 , 在 官 微 数据 中 提 
取 突 显 词 结果 上 占有 一 定 优势 。 对 比方 法 中 TF-IDF 
评测 结果 表明 单一 考虑 词 频 在 官 微 数据 中 获取 突显 词 
的 不 足 , 评测 值 很 低 。TextRank 方法 是 基于 图 模型 的 
算法 , 相对 于 TF-IDF 方法 在 实验 结果 中 各 项 值 均 有 
所 提高 , 然而 对 比 本 文 方法 其 评测 值 仍 然 不 足 ， 表明 
博文 转发 、 评 论 等 特有 属性 缺失 对 实验 结果 有 影响 。 
两 种 对 比方 法 结果 的 评测 值 都 较 低 ， 同 时 也 说 明 官 微 
相关 语 料 、 博 文 影响 力 等 特征 权重 的 加 入 对 特征 词 突 
显 性 检测 所 起 的 作用 , 使 官 微 相 关 词 的 权重 明显 得 到 
提高 , 官 微 特征 词 的 突显 性 更 加 突出 , 为 下 一 阶段 描 
述 官 微 事件 检测 提供 了 基础 支撑 。 


准确 率 HEX Fi 
E TF-IDF 日 TextRank 口 本 文 方法 


图 1 突显 词 评价 结果 
5.3 ”事件 检测 结果 与 分 析 
由 于 本 文 实验 环境 下 , 无 法 获取 某 一 时 间 段 内 现 
实生 活 中 官 微 事件 总 数 全 部 , 无 法 直接 得 到 传统 的 召 
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回 率 。 因 此 由 实验 室 的 三 位 同学 对 官 微 事 件 进行 人 工 标 
注 , 将 人 工 标注 的 官 微 事 件 总 数 等 同 为 现实 中 官 微 事件 
总 数 , 将 识别 到 的 事件 数 和 人 工 标注 的 事件 数 交 集 作为 
识别 正确 的 事件 数 , 进而 计算 官 微 事 件 的 准确 率 、 召 回 
率 、 上 值 。 事 件 检测 评价 方法 如 公式 (10)- 公 式 (12) 所 示 。 


准确 率 二 识别 正确 的 事件 数 i 
E EE US 
aga 识别 正确 的 事件 数 识别 正确 的 事件 数 
i 人 工 标注 的 事件 总 数 ”现实 中 正确 事件 总 数 
(11) 
_ 2x 准 确 率 x 召回 率 
Mi- 淮 确 率 十 在 画素 


官 微 突显 词 能 够 表征 官 微 事件 相关 博文 ,而 官 微 
事件 相关 博文 又 能 够 反映 官 微 事件 , 因此 官 微 突显 词 
检测 的 正确 性 直接 影响 官 微 事 件 检测 的 准确 率 。 实 验 
中 设置 突显 词 检测 阔 值 o 1.85, 得 到 的 突显 词 效果 
最 好 。 相 似 度 参 数 m 、o 、043 a 参数 值 分 别 设置 
为 0.3、0.3、0.25、0.15 时 , 采用 凝聚 层次 聚 类 算法 对 
2015 年 10 月 7 日 -2016 年 4 月 20 日 之 间 的 北京 大 学 
官 微 博文 数据 进行 事件 检测 , 得 到 三 个 具有 代表 性 的 
官 微 事件 类 复 ， 以 每 个 类 复 中 对 应 权 值 较 大 的 若干 突 
显 词 描述 该 事件 类 ， 如 表 2 所 示 。 

将 文献 [3] 中 提出 的 基于 突 发 词 聚 类 的 微 博 事件 
检测 算法 作为 文献 方法 , 将 文献 [5] 中 提出 的 方法 作为 
基础 方法 。 将 基础 方法 、 文 献 方法 和 本 文 方法 在 相同 
的 实验 环境 下 进行 准确 率 、 召 回 率 与 值 对 比 , 实验 
数据 为 官 微 博文 数据 。 

文献 方法 的 实验 中 , 突显 性 权重 阔 值 9 取 2.0, R 
类 闭 值 采用 的 是 距离 闪 值 ， 其 中 增 量 聚 类 上 距离 阔 值 / 
分 别 取 300-900 进行 实验 ， 当 距离 病 值 取 500 时 , R 
结果 F 值 达到 最 优 值 0.701, 准确 率 为 0.597, 召回 率 为 
0.850。 与 本 文 方法 的 准确 率 0.635、 召 回 率 0.855 K F 
值 0.730 比 对 ,如 图 2 所 示 。 

从 图 2 可 以 看 出 ,与 基础 方法 和 文献 方法 相 比 ， 
本 文 方法 在 事件 检测 结果 中 的 准确 率 、 召 回 率 以 及 F 
值 均 有 所 提高 。 其 中 准确 率 和 下 值 提高 较 明 显 。 分 析 
表明 官 微 突显 词 检 测 对 官 微 事 件 检 测 准 确 率 有 一 定 的 
影响 。 表 2 数据 也 可 以 说 明 官 微 博文 中 的 突显 词 能 够 
较 清 楚 地 描述 官 微 事件 , 起 到 检测 官 微 事 件 的 作用 。 同 
时 , 凝聚 层次 聚 类 算法 收敛 性 较 好 , 对 于 突显 词 博文 聚 
类 的 实验 效果 也 具有 可 观 性 。 
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表 2 官 微 事件 检测 结 
官 微 事件 事件 类 描述 突显 词 博文 聚 类 日 期 


_， 【和 林 建 华 校长 看 望 诺 贝尔 奖 获 得 者 屠 蝴 哟 校友 ] 10 月 6 HFE, 
— HM BRAH 。 2015 年 诺 贝 尔 生理 学 或 医学 奖 获得 者 、 北 京 大 学 校友 导 助 嘻 的 家 2015-10-7 11: 44:35 
JE mk, dE 林 建 华 校 mnes RBK HORAE IT E MUTET RR BUR.... 


zi 
E 
大 师 生 表示 祝贺 长 北大 医学 
部 席 谈 【 踏实 做 事 献身 科学 一 一 屠 喝 吻 校 友 获 诺 奖 后 医学 部 师 生 一 席 


谈 】 在 校友 屠 哟 吻 获 得 诺 贝 尔 奖 后 , 北大 医学 部 … 


# 北 大 新 闻 # 【 简讯 : 北京 大 学 13 项 成 果 喜 获 2015 年 度 国家 科学 
技术 奖 】 1 月 8 日 上 午 。 人 民 大 会 党 举行 2015 年 度 国 家 科学 技术 2016-1-8 18: 28: 49 


空间 科学 院 教授 获 。 六 分 PUE M 奖励 大 会 。 北 京 大 学 -。 


2015-10-17 13: 12: 17 


国家 技术 发 明 奖 pyp 曼 磊 。 # 科 研 动态 # [ 地 球 与 空间 科学 学 院 受 大 教授 获 国 家 技术 发 明 奖 二 
等 奖 ] 1 月 8 日 ,中 共 中 央 、 国 务 院 在 人 民 大 会 堂 举 行 2015 年 度 2016-1-16 10: 30: 03 
国家 科学 技术 奖励 大 会 .… 
# 总 理 来 啦 # 第 一 站 ， 克 强 总 理 来 到 位 于 朗 润 园 的 国家 发 展 研究 
院 ， 了 解 北京 大 学 智库 建设 以 及 国家 发 展 研 究 院 的 发 展 情况 ,北京 ”2016-4-15 15: 48: 00 
总 理 北京 大 学 ”大 学 校长 林 建 华 .. 
朗 润 园 智库 ”. - m 
总 里 来 访 北 大 林 建 华 校长 # 总 理 来 啦 # 第 三 站 ， 克 强 总 理 来 到 本 科 期 间 (1978-1982 年 ) 就 读 
母校 光华 管理 “的 法 学 院 … 光 华 管理 学 院 的 同学 们 热烈 欢迎 总 理 回 到 母校 ， 总理。 2016-4-15 16: 30: 29 
dutem o 与 同学 们 合影 留念 。 
# 总 理 来 啦 # 夜幕 渐渐 降临 ， 克 强 总 理 一 行 来 到 北京 大 学 农 园 食 "n 
堂 .. 克 强 总 理 在 同学 们 的 簇拥 下 走出 农 园 食 堂 .… 20167471S 20: 03701 
0.3 测 。 在 以 后 的 实验 中 还 要 进一步 检测 本 文 方法 在 一 般 
] 微 博 中 的 适用 性 , 确定 官 微 数据 和 一 般 微 博 数据 差 
别 所 带 来 的 影响 。 
B 6 & ii 


一 本 文 提出 一 种 结合 博文 影响 力 、 词 基础 权重 和 官 
微 相关 词 权重 的 官 微 突 显 词 检测 方法 , 可 以 对 官 微 博 
| 文中 的 突显 词 进行 准确 提取 , 将 描述 官 微 事件 的 突显 
准确 率 召回 率 F 值 Y CBPMPÉERHE ER ye HERES YE B KE H- 

i d 词 权 重 增 大 。 通 过 凝聚 式 层次 聚 类 算法 聚 类 得 到 事件 
TORNA -— 结果 , 取得 了 可 观 的 效果 。 该 方法 不 EF, 用 官 
IEBIUDE RIDCRIUTIR ERR Ae FER 微 博文 历史 记录 训练 官 微 相关 词 会 出 现 数据 冷 启动 问 
方法 获取 的 突显 词 不 能 够 很 好 地 表征 官 微 事件 , 事件 一 HNO | RAM 
RES AARDE, 基础 方法 参数 信 较 低 文献 E 理论 分 析 可 知 官 微 历史 记录 时 间 踪 度 越 长 记录 数 
: B i ERA, 机 器 学 习 到 的 官 微 相关 词 就 越 精准 , 数据 冷 


方法 和 本 文 方法 郑 距 不 大 ,可 能 是 新 闻 话 题 抽取 方法 Sr e TRIER CR 
对 于 官 微 数据 的 敏感 性 较 一 般 微 博 事件 提取 方法 的 敏 ons ue d MU. 
感性 高 , 事件 检测 准确 率 和 召回 率 的 差别 得 到 了 不 同 。 多 史 记录 进行 六 练 ， 以 实现 定向 相关 词 较 准确 提取 和 


的 下 值 。 综 上 , 基础 方法 和 文献 方法 对 于 特征 词 的 官 PERE. EMRENERIEN, E 
微 相关 性 考虑 都 欠缺 , 说 明 在 官 微 这 个 特殊 领域 , 利 。” 微 领 域 仍 是 一 个 待 发 气 的 领域 ,下 一 步 将 建立 更 加 完 


用 官 微 突显 词 博文 聚 类 方法 对 于 官 微 事件 检测 结果 的 “， 善 的 官 微 相关 语 料 测试 库 ,也 将 根据 官 微 的 特征 提出 
有 效 性 ， 能 够 将 描述 官 微 事件 的 博文 突显 词 准确 地 ”一 系列 适合 官 微 数据 处 理 的 方法 , 更 好 地 挖掘 这 个 领 
提取 出 来 并 用 于 描述 官 微 事 件 类 ,完成 官 微 事件 检 — 域 存在 的 价值 。 
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Detecting Events from Official Weibo Profiles Based on Post 
Clustering with Burst Words 


Gao Yongbing! Yang Guipeng! Zhang Di Ma Zhanfei 
(School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, China) 
“(Department of Computer, Baotou Teachers’ College, Baotou 014010, China) 


Abstract: [Objective] This paper aims to remove the unrelated information from the official Weibo (micro-blog) 
profiles, and then retrieves the posts on official events. [Methods] First, we used the word2vec machine learning model 
to train the official Weibo datasets. Then, we proposed an official micro burst words detection method based on the 
influence of Weibo posts, the base weight and the related official profiles. Third, we calculated the similarity of blog 
posts with the burst words, and used hierarchical clustering algorithm to select burst words for the target events. 
[Results] The proposed algorithm had better precision (63.5%), recall (85.596) and F values (0.73) than the traditional 
TF-IDF and TextRank algorithms. [Limitations] The official profiles did not have enough historical data on the events. 
[Conclusions] The burst words help us detect official events effectively from the official Weibo profiles. 

Keywords: Official Micro-blog Related Words Burst Words | Official Microblog Events | Word2Vec 
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